Support Vector Machine (SVM)

Machine Learning - মেশিন লার্নিং (Machine Learning)

197

Support Vector Machine (SVM) একটি শক্তিশালী মেশিন লার্নিং অ্যালগরিদম যা ক্লাসিফিকেশন এবং রিগ্রেশন কাজের জন্য ব্যবহৃত হয়। SVM মূলত ক্লাসিফিকেশন প্রোবলেম সমাধান করতে ব্যবহার হয়, কিন্তু এটি রিগ্রেশন সমস্যাতেও কার্যকরী হতে পারে। এটি হাইপারপ্লেন তৈরি করে, যা ডেটাকে দুটি শ্রেণিতে বিভক্ত করে।

SVM-এর মূল লক্ষ্য হলো এমন একটি হাইপারপ্লেন খুঁজে বের করা, যা শ্রেণীভিত্তিক ডেটাকে এমনভাবে বিভক্ত করে যাতে দুটি শ্রেণীর মধ্যে সর্বাধিক সীমারেখা (margin) থাকে।

SVM কিভাবে কাজ করে?

SVM একটি সুপারভাইজড লার্নিং অ্যালগরিদম, যা ক্লাসিফিকেশন প্রোবলেম সমাধান করতে সবচেয়ে বেশি ব্যবহৃত হয়। এটি হাইপারপ্লেন তৈরি করে যা দুটি ক্লাসের মধ্যে পার্থক্য তৈরি করে।

১. হাইপারপ্লেন এবং মার্জিন

হাইপারপ্লেন (Hyperplane): একটি হাইপারপ্লেন হলো একটি রেখা (যদি ডেটা 2D থাকে), একটি বেস (যদি 3D থাকে), অথবা সাধারণভাবে n-ডাইমেনশনের মধ্যে একটি বিভাজক পৃষ্ঠ যা ডেটাকে দুটি শ্রেণীতে বিভক্ত করে।
মার্জিন (Margin): মার্জিন হলো দুটি শ্রেণীর মধ্যে সর্বনিম্ন দূরত্ব। SVM এই মার্জিনটিকে সর্বাধিক করতে চায়, কারণ এটি মডেলের সাধারণীকরণের ক্ষমতাকে বাড়ায়।

SVM এর লক্ষ্য হচ্ছে একটি হাইপারপ্লেন খুঁজে বের করা যা সর্বাধিক মার্জিন তৈরি করে।

২. সাপোর্ট ভেক্টর (Support Vectors)

সাপোর্ট ভেক্টর (Support Vectors) হলো ডেটা পয়েন্ট যা হাইপারপ্লেনের কাছাকাছি থাকে এবং যা মার্জিনের মান নির্ধারণে সহায়ক হয়। এগুলি হল সেই পয়েন্টগুলি যা মডেলটিকে সঠিকভাবে শ্রেণীভুক্ত করতে সাহায্য করে। সাপোর্ট ভেক্টরই হলো সেই পয়েন্টগুলি যা একে অপর থেকে সর্বোচ্চ দূরত্বে থাকে।

SVM-এর ধরণ

SVM বিভিন্ন ধরনের ডেটা সমস্যা সমাধান করার জন্য বিভিন্ন পদ্ধতি ব্যবহার করতে পারে:

লিনিয়ার SVM (Linear SVM):
- এটি তখন ব্যবহৃত হয় যখন ডেটা লিনিয়ারীভাবে বিভক্ত হতে পারে।
- অর্থাৎ, একটি একক হাইপারপ্লেন ডেটাকে দুটি শ্রেণীতে পরিষ্কারভাবে বিভক্ত করতে সক্ষম হয়।
নন-লিনিয়ার SVM (Non-Linear SVM):
- যখন ডেটা সোজাভাবে বিভক্ত হতে পারে না, তখন কার্নেল ট্রিকস (Kernel tricks) ব্যবহার করে SVM একে একটি উচ্চতর ডাইমেনশনে ম্যাপ করে এবং সেখানে লিনিয়ার হাইপারপ্লেন ব্যবহার করে শ্রেণীভুক্ত করতে পারে।
- কিছু জনপ্রিয় কার্নেল হল:
  - পলিনোমিয়াল কার্নেল (Polynomial Kernel)
  - গাউসিয়ান রেডিয়াল বেসিস ফাংশন (RBF) কার্নেল

SVM এর প্রক্রিয়া

SVM কাজ করার জন্য বেশ কয়েকটি ধাপ অনুসরণ করে:

ডেটার শ্রেণী নির্ধারণ: ডেটাকে দুইটি শ্রেণীতে বিভক্ত করতে হবে (যেমন, কুকুর ও বিড়াল)।
হাইপারপ্লেন নির্বাচন: SVM এমন একটি হাইপারপ্লেন নির্বাচন করবে যা ডেটাকে দুটি শ্রেণীতে বিভক্ত করে।
সাপোর্ট ভেক্টর নির্বাচন: সাপোর্ট ভেক্টরগুলো সেগুলি হবে যেগুলি হাইপারপ্লেনের কাছাকাছি অবস্থান করবে এবং মার্জিনের মান সর্বাধিক রাখবে।
কার্নেল ফাংশন প্রয়োগ (যদি প্রয়োজন হয়): যদি ডেটা লিনিয়ারভাবে বিভক্ত না হয়, তবে SVM কার্নেল ফাংশন ব্যবহার করবে, যা ডেটাকে উচ্চতর মাত্রায় রূপান্তরিত করবে এবং একটি লিনিয়ার সীমানা তৈরি করবে।

SVM এর উপকারিতা এবং অসুবিধা

উপকারিতা (Advantages):

সঠিক ক্লাসিফিকেশন: SVM খুব ভালোভাবে কাজ করে যখন ডেটা লিনিয়ারভাবে বিভক্ত হতে পারে।
মাল্টি-ডাইমেনশনাল স্পেস: SVM উচ্চ ডাইমেনশন স্পেসে খুব ভালো পারফর্ম করে।
মার্জিন সর্বাধিকীকরণ: SVM-এর প্রধান সুবিধা হলো এটি মার্জিন সর্বাধিক করার চেষ্টা করে, যা সাধারণীকরণের ক্ষমতা বাড়ায়।

অসুবিধা (Disadvantages):

কম্পিউটেশনাল খরচ: বিশেষ করে যখন ডেটা বড় হয় এবং কার্নেল ট্রিকস ব্যবহৃত হয়, তখন SVM প্রশিক্ষণের জন্য সময় এবং রিসোর্স খরচ অনেক বেশি হতে পারে।
অনেক টিউনিং প্রয়োজন: SVM এর প্যারামিটারগুলির (যেমন, কার্নেল ফাংশন, C, gamma) নির্বাচন খুবই গুরুত্বপূর্ণ এবং এগুলি সঠিকভাবে নির্বাচন না করলে মডেলটি ভালো ফলাফল নাও দিতে পারে।

SVM এর ব্যবহার

SVM বিভিন্ন ক্ষেত্রে ব্যবহৃত হতে পারে, যেমন:

বায়োইনফরমেটিক্স (Bioinformatics): জিনোমিক্স এবং প্রোটিওমিক্স ডেটা বিশ্লেষণ।
চিত্র এবং শব্দ শ্রেণীভুক্তকরণ (Image and Speech Classification): ইমেজ ক্লাসিফিকেশন, হাতের লেখা চিনহ, শব্দ সনাক্তকরণ।
টেক্সট ক্লাসিফিকেশন (Text Classification): স্প্যাম ফিল্টারিং এবং ইমেল ক্যাটেগরাইজেশন।
ভাষা এবং প্রকৃতি নির্ধারণ: ভাষা বা ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) এ SVM ব্যবহার করা হয়।

উপসংহার

SVM হলো একটি শক্তিশালী মেশিন লার্নিং অ্যালগরিদম যা বিশেষভাবে ক্লাসিফিকেশন কাজের জন্য ব্যবহৃত হয়, কিন্তু এটি রিগ্রেশন সমস্যাতেও কার্যকরী হতে পারে। SVM-এ, হাইপারপ্লেন এবং সাপোর্ট ভেক্টর নির্ধারণের মাধ্যমে শ্রেণীভেদ করা হয় এবং এটি ডেটা শিখতে অত্যন্ত কার্যকরী।

Content added By

Md Azizur Rahman

SVM কী এবং এর ভূমিকা

346

Support Vector Machine (SVM) হলো একটি শক্তিশালী এবং জনপ্রিয় মেশিন লার্নিং অ্যালগরিদম, যা প্রধানত ক্লাসিফিকেশন এবং রিগ্রেশন সমস্যার সমাধানে ব্যবহৃত হয়। এটি একটি সুপারভাইজড লার্নিং অ্যালগরিদম, যা শ্রেণীবিভাজন (Classification) বা পরিমাণগত অনুমান (Regression) করতে সক্ষম।

SVM এর ধারণা:

SVM মূলত হাইপারপ্লেন তৈরি করে যা ডেটাকে শ্রেণীবদ্ধ করতে সাহায্য করে। এটি এমন একটি সীমারেখা বা সীমানা চিহ্নিত করে যা দুটি শ্রেণীকে পৃথক করে। একটি SVM মডেলটি সবচেয়ে উপযুক্ত হাইপারপ্লেনটি খুঁজে বের করে, যা দুটি শ্রেণীর মধ্যে সর্বাধিক মার্জিন (Maximum Margin) প্রদান করে।

SVM এর প্রধান বৈশিষ্ট্য:

হাইপারপ্লেন (Hyperplane): SVM একটি সমতল (plane) খুঁজে বের করে যা ডেটার শ্রেণীগুলিকে একে অপরের থেকে আলাদা করে। এটি সাধারণত উচ্চমাত্রার ডেটার ক্ষেত্রে কাজ করে এবং অনেক ধরনের সমস্যা সমাধানে সক্ষম।
সাপোর্ট ভেক্টর (Support Vectors): ডেটা পয়েন্টগুলো যা হাইপারপ্লেনের কাছাকাছি থাকে এবং শ্রেণী বিভাজন করার ক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা রাখে। এই সাপোর্ট ভেক্টরগুলোই মডেলের জন্য গুরুত্বপূর্ণ তথ্য সরবরাহ করে।
মার্জিন (Margin): SVM সর্বোচ্চ মার্জিন খুঁজে বের করার চেষ্টা করে, যা হলো হাইপারপ্লেন এবং শ্রেণীভুক্ত ডেটার মধ্যে সর্বোচ্চ দূরত্ব। বড় মার্জিন সাধারণত ভালো পারফরম্যান্স প্রদান করে।

SVM এর ভূমিকা:

SVM এর ভূমিকা অনেক ক্ষেত্রেই গুরুত্বপূর্ণ এবং এটি নানা ধরনের মেশিন লার্নিং সমস্যার সমাধানে ব্যবহৃত হয়:

ক্লাসিফিকেশন:
- SVM সবচেয়ে বেশি বাইনারি ক্লাসিফিকেশন (Binary Classification) সমস্যা সমাধানে ব্যবহৃত হয়, যেখানে দুটি শ্রেণীর মধ্যে পার্থক্য তৈরি করা হয়। যেমন, একটি ইমেল যদি স্প্যাম বা নন-স্প্যাম হিসেবে শ্রেণীবদ্ধ করা প্রয়োজন।
- Multi-class classification: একাধিক শ্রেণী থাকলে, SVM আলাদা আলাদা বাইনারি শ্রেণী বিভাজন ব্যবহার করে (One-vs-All, One-vs-One)।
রিগ্রেশন (Regression):
- SVM Regression (SVR) ক্লাসিফিকেশনের মতো, তবে এখানে লক্ষ্য হলো নির্দিষ্ট সংখ্যার পূর্বানুমান করা। এটি Support Vector Regression নামে পরিচিত এবং এটি উচ্চ মাত্রার ডেটা সেটে ভালো ফলাফল দেয়।
নন-লিনিয়ার ক্লাসিফিকেশন:
- SVM কর্নেল ট্রিক (Kernel Trick) ব্যবহার করে নন-লিনিয়ার ডেটাতে কাজ করতে সক্ষম। কর্নেল ট্রিকের মাধ্যমে, SVM ডেটাকে উচ্চ মাত্রার স্পেসে ম্যাপ করে, যেখানে এটি লিনিয়ারভাবে বিভাজন করতে পারে।
  - উদাহরণ: রেডিয়াল বেসিস ফাংশন (RBF) কর্নেল ব্যবহার করে, যেখানে ডেটা কনভিক্ট অবস্থায় থাকে এবং সহজে শ্রেণীবদ্ধ করা সম্ভব।
নিঃসৃত নোইস (Noise Tolerant):
- SVM তুলনামূলকভাবে নোইস (Noise) এবং ভুল তথ্যের সাথে খুব ভালোভাবে মানিয়ে নিতে পারে। এটি মার্জিন বৃদ্ধি করে, যা মডেলটিকে অধিক স্থিতিশীল করে।
ওভারফিটিং রোধ:
- SVM একটি কমপ্লেক্সিটি প্যারামিটার (C) ব্যবহার করে, যা মডেলটির ফিটিংয়ের স্তর নিয়ন্ত্রণ করতে সাহায্য করে। এর মাধ্যমে আপনি ওভারফিটিং (Overfitting) এড়াতে পারবেন।
প্রাক-প্রসেসিং এবং বৈশিষ্ট্য নির্বাচন:
- SVM সহজেই বৈশিষ্ট্য নির্বাচন (Feature Selection) করতে পারে এবং কম বৈশিষ্ট্য সহ অধিক কার্যকরী ফলাফল প্রদান করতে পারে। এটি উচ্চ মাত্রার ডেটা থেকে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি বের করতে সক্ষম।

SVM এর সুবিধা:

বহুল ডেটা সুরক্ষা: SVM সমান্তরালভাবে কাজ করতে পারে এবং ছোট ডেটা সেটেও কার্যকরী। এটি ডেটার মধ্যে সঠিক ফিচারগুলির মাধ্যমে শ্রেণী নির্ধারণে সক্ষম।
কর্নেল ট্রিক ব্যবহার: এটি খুবই শক্তিশালী, কারণ আপনি নন-লিনিয়ার ডেটার উপরও সফলভাবে কাজ করতে পারেন।
সঠিক পারফরম্যান্স: সাধারণত SVM খুব ভালো পারফরম্যান্স প্রদান করে, বিশেষত যেসব সমস্যায় শ্রেণী বিভাজন স্পষ্ট এবং পরিষ্কার থাকে।

SVM এর সীমাবদ্ধতা:

দ্রুতগতির সমস্যা: SVM বড় ডেটা সেটের সাথে কাজ করার সময় অনেক সময় কম্পিউটেশনাল খরচ হতে পারে এবং এই ক্ষেত্রে এটি অন্য মডেলগুলোর তুলনায় ধীরগতিতে কাজ করতে পারে।
সামঞ্জস্যপূর্ণ মডেল প্যারামিটার নির্বাচন: SVM মডেলটি সঠিক প্যারামিটার নির্বাচন করতে প্রায়শই কষ্টসাধ্য হতে পারে, যেমন, C, Kernel, এবং Gamma প্যারামিটারগুলো।

উদাহরণ:

ধরা যাক, আপনি একটি মেডিক্যাল ডেটা সেট ব্যবহার করছেন যেখানে আপনি রোগীকে বাড়তি ঝুঁকি (Risk) নিয়ে বিভাগ (Classify) করতে চান, যেমন "সুস্থ" বা "রোগী"। সেক্ষেত্রে SVM ব্যবহার করে রোগীকে শ্রেণীবদ্ধ করতে পারেন, যেখানে "সুস্থ" এবং "রোগী" শ্রেণীটি হাইপারপ্লেন দ্বারা আলাদা করা হবে।

উপসংহার:

SVM হলো একটি শক্তিশালী এবং বহুমুখী মেশিন লার্নিং অ্যালগরিদম, যা শ্রেণীবদ্ধকরণ এবং রিগ্রেশন সমস্যা সমাধানে ব্যবহৃত হয়। এর মূল উদ্দেশ্য হলো ডেটার মধ্যে সবচেয়ে ভাল হাইপারপ্লেন তৈরি করে শ্রেণী বা আউটপুটের অনুমান করা। SVM অনেক ক্ষেত্রে শক্তিশালী এবং নির্ভুল ফলাফল প্রদান করে, বিশেষ করে যেখানে শ্রেণী বিভাজন স্পষ্ট এবং নির্ভুল হতে হয়।

Content added By

Md Azizur Rahman

Hyperplane এবং Margin এর ধারণা

181

হাইপারপ্লেন এবং মার্জিন দুটি গুরুত্বপূর্ণ ধারণা সাপোর্ট ভেক্টর মেশিন (Support Vector Machine - SVM) অ্যালগরিদমে, যা ক্লাসিফিকেশন সমস্যা সমাধানের জন্য ব্যবহৃত হয়। এই ধারণাগুলি মডেলটিকে সিদ্ধান্ত নিতে সহায়ক হয়, বিশেষ করে দ্বৈত শ্রেণী (binary classification) সমস্যা সমাধানে।

হাইপারপ্লেন (Hyperplane)

হাইপারপ্লেন হলো একটি সমতল (flat) যে পরিসরে একটি $n <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>n</mi></mrow><annotation encoding="application/x-tex">n</annotation></semantics></math>$ -মাত্রিক স্থানকে দুটি ভিন্ন অংশে বিভক্ত করে। সাধারণভাবে, একটি $n <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>n</mi></mrow><annotation encoding="application/x-tex">n</annotation></semantics></math>$ -মাত্রিক স্পেসে একটি হাইপারপ্লেন একটি $(n - 1) <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mo stretchy="false">(</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(n-1)</annotation></semantics></math>$ -মাত্রিক উপবিভাগ (subspace) হিসেবে কাজ করে।

২-মাত্রিক স্পেসে (2D): হাইপারপ্লেন হলো একটি রেখা (line)।
৩-মাত্রিক স্পেসে (3D): হাইপারপ্লেন হলো একটি সমতল (plane)।
$n <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>n</mi></mrow><annotation encoding="application/x-tex">n</annotation></semantics></math>$ -মাত্রিক স্পেসে (nD): হাইপারপ্লেন হলো একটি $(n - 1) <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mo stretchy="false">(</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(n-1)</annotation></semantics></math>$ -মাত্রিক সারণী বা সমতল।

সাপোর্ট ভেক্টর মেশিন (SVM) মডেলে, হাইপারপ্লেনটি সেই সমতল বা রেখা যা ইনপুট ডেটাকে দুটি শ্রেণীতে বিভক্ত করে। এই প্লেনের এক পাশে একটি শ্রেণী এবং অন্য পাশে আরেকটি শ্রেণী থাকবে।

উদাহরণ:

ধরা যাক, আপনি একটি দ্বৈত শ্রেণী (binary classification) সমস্যায় কাজ করছেন, যেখানে একটি কুকুর এবং একটি বিড়াল চিত্রের মধ্যে পার্থক্য করতে হবে। হাইপারপ্লেন হলো এমন একটি রেখা যা কুকুর এবং বিড়ালের চিত্রগুলিকে স্পষ্টভাবে দুটি শ্রেণীতে আলাদা করে।

হাইপারপ্লেনের সূত্র:

হাইপারপ্লেনের সাধারণ সমীকরণ হলো:

$w⋅x+b=0<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>w</mi><mo>⋅</mo><mi>x</mi><mo>+</mo><mi>b</mi><mo>=</mo><mn>0</mn></mrow><annotation encoding="application/x-tex">w \cdot x + b = 0</annotation></semantics></math>$

এখানে,

$w <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>w</mi></mrow><annotation encoding="application/x-tex">w</annotation></semantics></math>$ হলো হাইপারপ্লেনের সমতল নির্দেশক ভেক্টর।
$x <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>x</mi></mrow><annotation encoding="application/x-tex">x</annotation></semantics></math>$ হলো ইনপুট বৈশিষ্ট্য।
$b <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>b</mi></mrow><annotation encoding="application/x-tex">b</annotation></semantics></math>$ হলো বায়াস (bias) টার্ম, যা হাইপারপ্লেনের স্থান নির্ধারণে সহায়ক।

মার্জিন (Margin)

মার্জিন হলো হাইপারপ্লেন এবং শ্রেণীভুক্ত সাপোর্ট ভেক্টরের মধ্যে দূরত্ব। সাপোর্ট ভেক্টর হলো সেই ডেটা পয়েন্টগুলি যা হাইপারপ্লেনের সবচেয়ে কাছাকাছি থাকে এবং শ্রেণী বিভাজন করার জন্য অত্যন্ত গুরুত্বপূর্ণ।

SVM-এ, আমাদের লক্ষ্য হল এমন একটি হাইপারপ্লেন খুঁজে বের করা যা শ্রেণীভুক্ত ডেটা পয়েন্টগুলির জন্য সবচেয়ে বড় মার্জিন প্রদান করে। এর মানে হলো, আমরা সেই হাইপারপ্লেনটি খুঁজে বের করতে চাই যা সাপোর্ট ভেক্টরগুলির সাথে সবচেয়ে বড় দূরত্বে থাকে, যাতে এটি নতুন ডেটার জন্য সর্বোত্তম ভবিষ্যদ্বাণী করতে পারে।

মার্জিনের সূত্র:

মার্জিনের দৈর্ঘ্য হলো:

$2∥w∥<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mfrac><mn>2</mn><mrow><mi mathvariant="normal">∥</mi><mi>w</mi><mi mathvariant="normal">∥</mi></mrow></mfrac></mrow><annotation encoding="application/x-tex">\frac{2}{\|w\|}</annotation></semantics></math>$

এখানে,

$w <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>w</mi></mrow><annotation encoding="application/x-tex">w</annotation></semantics></math>$ হলো হাইপারপ্লেনের ওজন ভেক্টর (weight vector)।

SVM-এ হাইপারপ্লেন এবং মার্জিনের গুরুত্ব

বৃহত্তম মার্জিনের জন্য SVM: SVM একটি মৌলিক ধারণা হিসাবে মার্জিনের সাইজ সর্বাধিক করতে চায়। বৃহত্তম মার্জিনের হাইপারপ্লেন সাধারণত নতুন ডেটার জন্য সবচেয়ে ভাল শ্রেণীভুক্তকরণ ফলাফল দেয়। এটি "ম্যাক্সিমাম মার্জিন ক্লাসিফায়ার" (Maximum Margin Classifier) নামে পরিচিত।
সাপোর্ট ভেক্টর: যেহেতু মার্জিনের দৈর্ঘ্য কমানোর জন্য প্রয়োজনীয় সাপোর্ট ভেক্টরগুলিই সবচেয়ে গুরুত্বপূর্ণ, সুতরাং অন্য ডেটা পয়েন্টগুলি মডেলের জন্য তেমন প্রভাব ফেলে না। এই কারণে, SVM অনেক সময় শক্তিশালী এবং ভাল সাধারণীকরণ ক্ষমতা (generalization power) প্রদান করে।

উপসংহার

হাইপারপ্লেন হলো সেই রেখা বা সমতল যা ডেটাকে দুটি শ্রেণীতে বিভক্ত করে।
মার্জিন হলো হাইপারপ্লেন এবং শ্রেণীভুক্ত সাপোর্ট ভেক্টরের মধ্যে দূরত্ব, এবং SVM এর লক্ষ্য একটি বৃহত্তম মার্জিনের হাইপারপ্লেন খুঁজে বের করা।
সাপোর্ট ভেক্টর মেশিনের মূল উদ্দেশ্য হলো একটি হাইপারপ্লেন নির্বাচন করা যা মার্জিনের দৈর্ঘ্য সর্বাধিক করে এবং সঠিক ক্লাসিফিকেশন নিশ্চিত করে।

Content added By

Md Azizur Rahman

Linear এবং Non-linear SVM

189

Support Vector Machine (SVM) একটি জনপ্রিয় সুপারভাইজড লার্নিং অ্যালগরিদম, যা ক্লাসিফিকেশন এবং রিগ্রেশন কাজের জন্য ব্যবহৃত হয়। এটি প্রধানত ক্লাসিফিকেশন সমস্যা সমাধানে ব্যবহৃত হয়, বিশেষত দুই শ্রেণীর মধ্যে সীমারেখা চিহ্নিত করতে। SVM দুটি প্রধান ধরনের হয়: লিনিয়ার SVM এবং নন-লিনিয়ার SVM।

১. লিনিয়ার SVM (Linear SVM)

লিনিয়ার SVM একটি ক্লাসিফিকেশন মডেল যা দুটি শ্রেণীকে আলাদা করতে একটি সোজা বা লিনিয়ার হাইপারপ্লেন (hyperplane) ব্যবহার করে। এই হাইপারপ্লেনটি এমনভাবে চিহ্নিত করা হয় যে এটি দুই শ্রেণীকে সবচেয়ে বড় মার্জিনের সাথে আলাদা করতে পারে।

কীভাবে কাজ করে:

দুটি শ্রেণীকে আলাদা করার জন্য একটি সোজা লাইন বা হাইপারপ্লেন নির্বাচন করা হয়, যাতে দুই শ্রেণীর মধ্যে সর্বোচ্চ মার্জিন থাকে।
মার্জিন (Margin): দুটি শ্রেণীর মধ্যে একটি সোজা রেখা (বা হাইপারপ্লেন) এ যতটা সম্ভব স্থান রাখা হয়, এটি যেটি মডেলটিকে সঠিকভাবে ভবিষ্যদ্বাণী করতে সহায়ক হয়।
সাপোর্ট ভেক্টর (Support Vectors): সাপোর্ট ভেক্টরগুলি হলো ডেটা পয়েন্টগুলি যা হাইপারপ্লেনের খুব কাছে থাকে এবং সেগুলি মার্জিন নির্ধারণ করে।

লিনিয়ার SVM এর সুবিধা:

সরলতা: লিনিয়ার SVM সহজ এবং দ্রুত কাজ করে যখন ডেটা সরল এবং লিনিয়ার সেপারেবল হয়।
দ্রুত প্রশিক্ষণ: কম্পিউটেশনাল দৃষ্টিকোণ থেকে, এটি দ্রুত প্রশিক্ষিত হয়, বিশেষত ছোট এবং সোজা ডেটাসেটে।

উদাহরণ:

যেমন, একটি ডেটাসেট যেখানে পণ্য দুটি শ্রেণীতে বিভক্ত: "স্প্যাম" এবং "নন-স্প্যাম"। লিনিয়ার SVM এই দুটি শ্রেণীকে একটি সরল হাইপারপ্লেন দ্বারা আলাদা করতে পারে।

২. নন-লিনিয়ার SVM (Non-linear SVM)

যখন ডেটা সরল লিনিয়ার শ্রেণীভুক্ত করা যায় না, তখন নন-লিনিয়ার SVM ব্যবহৃত হয়। নন-লিনিয়ার SVM ঐ ধরনের সমস্যা সমাধান করতে ব্যবহৃত হয় যেখানে ডেটা দুটি শ্রেণীকে সোজা রেখা দ্বারা আলাদা করা সম্ভব নয়।

কীভাবে কাজ করে:

কর্নেল ট্রিক (Kernel Trick): নন-লিনিয়ার SVM একটি কর্নেল ফাংশন ব্যবহার করে, যা ডেটাকে উচ্চতর ডাইমেনশন স্পেসে মানচিত্রিত (map) করে এবং সেখানে ডেটাকে সোজা রেখা দ্বারা আলাদা করা সম্ভব হয়।
কর্নেল ফাংশন: এটি মূলত একটি ফাংশন যা ডেটার লিনিয়ার সেপারেবিলিটির জন্য উচ্চতর স্পেসে স্থানান্তর করে। কিছু সাধারণ কার্নেল ফাংশন হলো:
- রেডিয়াল বেসিস ফাংশন (RBF) কার্নেল
- পলিনোমিয়াল কার্নেল
- সিগময়েড কার্নেল

নন-লিনিয়ার SVM এর সুবিধা:

জটিল ডেটা হ্যান্ডলিং: নন-লিনিয়ার SVM জটিল এবং নন-লিনিয়ার ডেটা সেটের জন্য উপযুক্ত, যা সরল রেখার সাহায্যে আলাদা করা সম্ভব নয়।
আলাদা শ্রেণীভেদ করা: এটি এমন পরিস্থিতিতেও কাজ করতে পারে যেখানে শ্রেণীগুলি সোজা রেখার মাধ্যমে বিভক্ত করা সম্ভব নয়।

উদাহরণ:

যেমন, একটি ডেটাসেট যেখানে পণ্য দুটি শ্রেণীতে বিভক্ত: "কুকুর" এবং "বিড়াল"। তবে, যদি কুকুর এবং বিড়াল তাদের বিভিন্ন বৈশিষ্ট্য দ্বারা খুব কাছাকাছি থাকে, তাহলে তাদের সরল রেখা দ্বারা আলাদা করা সম্ভব নাও হতে পারে। এই ধরনের ক্ষেত্রে, নন-লিনিয়ার SVM RBF বা পলিনোমিয়াল কার্নেল ব্যবহার করে তাদের আলাদা করতে পারে।

৩. লিনিয়ার এবং নন-লিনিয়ার SVM এর তুলনা

বৈশিষ্ট্য	লিনিয়ার SVM	নন-লিনিয়ার SVM
ডেটা শ্রেণীভেদ	সরল সোজা রেখা দ্বারা	উচ্চতর ডাইমেনশন স্পেসে
কর্নেল ফাংশন	দরকার নেই	কর্নেল ফাংশন (যেমন RBF, পলিনোমিয়াল)
প্রসেসিং ক্ষমতা	দ্রুত, কম্পিউটেশনাল দিক থেকে কম	কম্পিউটেশনালভাবে বেশি এবং সময়সাপেক্ষ
ডেটা	সরল এবং লিনিয়ার সেপারেবল	জটিল এবং নন-লিনিয়ার সেপারেবল
বিপদ/সীমাবদ্ধতা	শুধুমাত্র লিনিয়ার সম্পর্ক সমাধান করতে সক্ষম	জটিল সম্পর্ক সমাধানে সক্ষম

উপসংহার:

লিনিয়ার SVM যখন ডেটা সোজা বা লিনিয়ারভাবে সেপারেবল হয়, তখন এটি খুবই কার্যকরী।
নন-লিনিয়ার SVM তখন ব্যবহৃত হয় যখন ডেটা লিনিয়ার সেপারেবল নয় এবং এর জন্য কর্নেল ট্রিক ব্যবহার করে ডেটাকে উচ্চতর ডাইমেনশন স্পেসে স্থানান্তরিত করে শ্রেণীভেদ করা হয়।

উপযুক্ত SVM মডেল নির্বাচন করা ডেটার প্রকৃতি এবং সমস্যার ধরনের উপর নির্ভর করে।

Content added By

Md Azizur Rahman

Kernel Functions (Linear, Polynomial, RBF)

194

Kernel functions মেশিন লার্নিংয়ের একটি গুরুত্বপূর্ণ অংশ, যা বিশেষ করে সাপোর্ট ভেক্টর মেশিন (SVM) এবং অন্যান্য কনিষ্ঠীকৃত মডেলগুলোতে ব্যবহৃত হয়। কের্নেল ফাংশন মূলত একটি ম্যাথমেটিক্যাল টুল যা ইনপুট ডেটা স্পেসের মধ্যে অ-লিনিয়ার বৈশিষ্ট্যগুলি ব্যবহারের মাধ্যমে ডেটাকে একটি উচ্চতর ডাইমেনশনে ম্যাপ করে। এর ফলে, অ-বৈশিষ্ট্যপূর্ণ এবং জটিল ডেটাসেটগুলিকে সহজে লিনিয়ার সমাধানে রূপান্তরিত করা সম্ভব হয়।

১. Linear Kernel

লিনিয়ার কের্নেল একটি খুব সাধারণ কের্নেল ফাংশন, যা সরাসরি ইনপুট স্পেসে কাজ করে এবং ডেটা পয়েন্টগুলিকে সরাসরি একটি উচ্চতর বা কম ডাইমেনশনাল স্পেসে ম্যাপ করার প্রয়োজন হয় না।

লিনিয়ার কের্নেল ফাংশন:

$K (x, y) = x T y + c <math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>K</mi><mo stretchy="false">(</mo><mi>x</mi><mo separator="true">,</mo><mi>y</mi><mo stretchy="false">)</mo><mo>=</mo><msup><mi>x</mi><mi>T</mi></msup><mi>y</mi><mo>+</mo><mi>c</mi></mrow><annotation encoding="application/x-tex">K(x, y) = x^T y + c</annotation></semantics></math>$

এখানে:

$x <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>x</mi></mrow><annotation encoding="application/x-tex">x</annotation></semantics></math>$ এবং $y <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>y</mi></mrow><annotation encoding="application/x-tex">y</annotation></semantics></math>$ হল ইনপুট ভেক্টর।
$c <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>c</mi></mrow><annotation encoding="application/x-tex">c</annotation></semantics></math>$ হল শিফট প্যারামিটার, যা কখনও কখনও কনস্ট্যান্ট টার্ম হিসেবে কাজ করে।
$x T y <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msup><mi>x</mi><mi>T</mi></msup><mi>y</mi></mrow><annotation encoding="application/x-tex">x^T y</annotation></semantics></math>$ হল ভেক্টর $x <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>x</mi></mrow><annotation encoding="application/x-tex">x</annotation></semantics></math>$ এবং $y <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>y</mi></mrow><annotation encoding="application/x-tex">y</annotation></semantics></math>$ -এর ডট প্রোডাক্ট।

লিনিয়ার কের্নেল ব্যবহার:

লিনিয়ার কের্নেল ব্যবহৃত হয় যখন ডেটা লিনিয়ারভাবে বিভাজ্য হয়। এটি সাধারণত সরল সমস্যাগুলির জন্য ব্যবহার করা হয়, যেখানে ইনপুট ডেটা সরাসরি একটি সমতল বা সোজা লাইন দ্বারা বিভক্ত করা যায়।
যেমন: একটি সোজা রেখা দ্বারা দুটি শ্রেণী (স্প্যাম এবং নন-স্প্যাম) আলাদা করা।

সুবিধা:

সহজ এবং দ্রুত গণনা করা যায়।
কম্পিউটেশনালভাবে অল্প খরচ।

সীমাবদ্ধতা:

কেবলমাত্র লিনিয়ার ক্লাসিফিকেশন সমস্যা সমাধান করতে কার্যকর।

২. Polynomial Kernel

পলিনোমিয়াল কের্নেল একটি শক্তিশালী কের্নেল ফাংশন যা ডেটাকে পলিনোমিয়াল ফর্মে ম্যাপ করে এবং অ-লিনিয়ার ক্লাসিফিকেশন সমস্যাগুলি সমাধান করতে সহায়ক।

পলিনোমিয়াল কের্নেল ফাংশন:

$K (x, y) = (x T y + c) d <math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>K</mi><mo stretchy="false">(</mo><mi>x</mi><mo separator="true">,</mo><mi>y</mi><mo stretchy="false">)</mo><mo>=</mo><mo stretchy="false">(</mo><msup><mi>x</mi><mi>T</mi></msup><mi>y</mi><mo>+</mo><mi>c</mi><msup><mo stretchy="false">)</mo><mi>d</mi></msup></mrow><annotation encoding="application/x-tex">K(x, y) = (x^T y + c)^d</annotation></semantics></math>$

এখানে:

$c <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>c</mi></mrow><annotation encoding="application/x-tex">c</annotation></semantics></math>$ হল শিফট প্যারামিটার (একটি কনস্ট্যান্ট)।
$d <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>d</mi></mrow><annotation encoding="application/x-tex">d</annotation></semantics></math>$ হল পলিনোমিয়াল ডিগ্রি (যেমন 2, 3, ইত্যাদি)।

পলিনোমিয়াল কের্নেল ব্যবহার:

পলিনোমিয়াল কের্নেল ব্যবহৃত হয় যখন ডেটা লিনিয়ার নয় কিন্তু একে পলিনোমিয়াল রূপে লিনিয়ার করা যায়। এটি ডেটাকে উচ্চতর ডাইমেনশনে ম্যাপ করে, যেখানে একটি পলিনোমিয়াল আউটপুট তৈরি হয়।
যেমন: স্প্যাম ফিল্টারিং, যেখানে ইনপুট বৈশিষ্ট্যগুলি পলিনোমিয়াল সম্পর্ক গঠন করতে পারে।

সুবিধা:

অ-লিনিয়ার সমস্যা সমাধানে সক্ষম।
পলিনোমিয়াল ডিগ্রি বাড়ালে মডেল আরও জটিল সম্পর্ক শিখতে সক্ষম।

সীমাবদ্ধতা:

উচ্চ ডিগ্রি পলিনোমিয়াল প্রয়োগ করলে অতিরিক্ত জটিলতা এবং কম্পিউটেশনাল খরচ বাড়ে।

৩. Radial Basis Function (RBF) Kernel

RBF কের্নেল বা গাউসিয়ান কের্নেল (Gaussian Kernel) একটি খুবই জনপ্রিয় কের্নেল যা সবচেয়ে বেশি ব্যবহৃত হয়। এটি ডেটাকে একটি উচ্চতর ডাইমেনশনাল স্পেসে ম্যাপ করে এবং ইনপুট স্পেসের মধ্যে সমীকরণের পার্থক্য বের করার জন্য একটি গাউসিয়ান বেল কার্ভ ব্যবহার করে।

RBF কের্নেল ফাংশন:

$K(x,y)=exp(−∥x−y∥22σ2)<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>K</mi><mo stretchy="false">(</mo><mi>x</mi><mo separator="true">,</mo><mi>y</mi><mo stretchy="false">)</mo><mo>=</mo><mi>exp</mi><mo>⁡</mo><mrow><mo fence="true">(</mo><mo>−</mo><mfrac><mrow><mi mathvariant="normal">∥</mi><mi>x</mi><mo>−</mo><mi>y</mi><msup><mi mathvariant="normal">∥</mi><mn>2</mn></msup></mrow><mrow><mn>2</mn><msup><mi>σ</mi><mn>2</mn></msup></mrow></mfrac><mo fence="true">)</mo></mrow></mrow><annotation encoding="application/x-tex">K(x, y) = \exp\left(-\frac{\|x - y\|^2}{2\sigma^2}\right)</annotation></semantics></math>$

এখানে:

$∥x−y∥2<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi mathvariant="normal">∥</mi><mi>x</mi><mo>−</mo><mi>y</mi><msup><mi mathvariant="normal">∥</mi><mn>2</mn></msup></mrow><annotation encoding="application/x-tex">\|x - y\|^2</annotation></semantics></math>$ হল $x <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>x</mi></mrow><annotation encoding="application/x-tex">x</annotation></semantics></math>$ এবং $y <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>y</mi></mrow><annotation encoding="application/x-tex">y</annotation></semantics></math>$ -এর মধ্যে ইউক্লিডিয়ান দূরত্বের বর্গ।
$σ<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>σ</mi></mrow><annotation encoding="application/x-tex">\sigma</annotation></semantics></math>$ হল প্যারামিটার যা গাউসিয়ান কের্নেল এর প্রসারণকে নিয়ন্ত্রণ করে।

RBF কের্নেল ব্যবহার:

RBF কের্নেল ব্যবহৃত হয় যখন ডেটা লিনিয়ার নয় এবং ডেটা পয়েন্টগুলি ক্লাস্টারে বিভক্ত হয়ে থাকে, যেখানে একটি "ঝোপ" বা গাউসিয়ান বেল কার্ভ দ্বারা ক্লাসিফিকেশন করা যায়।
এটি খুবই কার্যকরী যখন ডেটার মধ্যে অজানা বা জটিল সম্পর্ক থাকে এবং সেগুলোকে একটি উচ্চতর ডাইমেনশনে ম্যাপ করার প্রয়োজন হয়।

সুবিধা:

অ-বৈশিষ্ট্যপূর্ণ এবং জটিল ডেটাতে খুব কার্যকরী।
ইনপুট স্পেসের মধ্যে সমান্তরাল এবং একে অপরের কাছাকাছি ডেটা পয়েন্টগুলিকে একই শ্রেণীতে রাখে।

সীমাবদ্ধতা:

পারামিটার $σ<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>σ</mi></mrow><annotation encoding="application/x-tex">\sigma</annotation></semantics></math>$ নির্বাচন খুব গুরুত্বপূর্ণ। এটি মডেলের পারফরম্যান্সে গুরুত্বপূর্ণ প্রভাব ফেলতে পারে।
মেমরি এবং কম্পিউটেশনাল খরচ বেশি হতে পারে।

Kernel Trick:

Kernel Trick একটি কৌশল যা সঠিক কের্নেল ফাংশন ব্যবহার করে ডেটাকে উচ্চতর ডাইমেনশনে ম্যাপ করার সময় ডট প্রোডাক্ট এর পরিবর্তে কেবল কের্নেল ফাংশন ব্যবহার করে গণনা করা হয়। এটি গণনা করার সময় কম্পিউটেশনাল খরচ কমাতে সহায়ক।

উপসংহার

লিনিয়ার কের্নেল সরল এবং দ্রুত, তবে শুধুমাত্র লিনিয়ার ক্লাসিফিকেশন সমস্যার জন্য কার্যকরী।
পলিনোমিয়াল কের্নেল অ-লিনিয়ার সম্পর্ক বিশ্লেষণ করতে সাহায্য করে, তবে উচ্চ ডিগ্রি পলিনোমিয়াল বেশি জটিল এবং খরচ সৃষ্টিকারী হতে পারে।
RBF কের্নেল জটিল সম্পর্ক সনাক্ত করতে খুবই কার্যকরী এবং একটি গাউসিয়ান বেল কার্ভের মাধ্যমে ক্লাস্টারিং বা শ্রেণীবদ্ধকরণ করতে সক্ষম।

প্রত্যেক কের্নেল ফাংশন বিভিন্ন ধরনের ডেটার জন্য উপযুক্ত, এবং সঠিক কের্নেল নির্বাচন করা ডেটার প্রকৃতি এবং সমস্যার উপর নির্ভর করে।

Content added By

Md Azizur Rahman

Machine Learning পরিচিতি Machine Learning এর মৌলিক ধারণা Data Preprocessing এবং Feature Engineering Supervised Learning এর বেসিক ধারণা Linear Regression

Support Vector Machine (SVM)

SVM কিভাবে কাজ করে?

১. হাইপারপ্লেন এবং মার্জিন

২. সাপোর্ট ভেক্টর (Support Vectors)

SVM-এর ধরণ

SVM এর প্রক্রিয়া

SVM এর উপকারিতা এবং অসুবিধা

উপকারিতা (Advantages):

অসুবিধা (Disadvantages):

SVM এর ব্যবহার

উপসংহার

SVM কী এবং এর ভূমিকা

SVM এর ধারণা:

SVM এর প্রধান বৈশিষ্ট্য:

SVM এর ভূমিকা:

SVM এর সুবিধা:

SVM এর সীমাবদ্ধতা:

উদাহরণ:

উপসংহার:

Hyperplane এবং Margin এর ধারণা

হাইপারপ্লেন (Hyperplane)

উদাহরণ:

হাইপারপ্লেনের সূত্র:

মার্জিন (Margin)

মার্জিনের সূত্র:

SVM-এ হাইপারপ্লেন এবং মার্জিনের গুরুত্ব

উপসংহার

Linear এবং Non-linear SVM

১. লিনিয়ার SVM (Linear SVM)

কীভাবে কাজ করে:

লিনিয়ার SVM এর সুবিধা:

উদাহরণ:

২. নন-লিনিয়ার SVM (Non-linear SVM)

কীভাবে কাজ করে:

নন-লিনিয়ার SVM এর সুবিধা:

উদাহরণ:

৩. লিনিয়ার এবং নন-লিনিয়ার SVM এর তুলনা

উপসংহার:

Kernel Functions (Linear, Polynomial, RBF)

১. Linear Kernel

লিনিয়ার কের্নেল ফাংশন:

লিনিয়ার কের্নেল ব্যবহার:

সুবিধা:

সীমাবদ্ধতা:

২. Polynomial Kernel

পলিনোমিয়াল কের্নেল ফাংশন:

পলিনোমিয়াল কের্নেল ব্যবহার:

সুবিধা:

সীমাবদ্ধতা:

৩. Radial Basis Function (RBF) Kernel

RBF কের্নেল ফাংশন:

RBF কের্নেল ব্যবহার:

সুবিধা:

সীমাবদ্ধতা:

Kernel Trick:

উপসংহার

All Notifications

Promotion